데이터분석 준전문가 39회

데이터 이해


1. 다음 중 데이터 사이언티스트에 대한 설명으로 옳지 않은 것은?
  •  머신러닝 모델 구축을 위한 기본적인 언어를 사용한 코딩 스킬이 필요하다.
  •  외국의 각 전문가들은 강력한 호기심이야말로 다이언 사이언티스트의 중요한 특징이라 생각한다.
  •  데이터 해커, 애널리스트, 커뮤니케이션, 신뢰받는 어드바이저 등의 조합이라 할 수 있다.
  •  개인적으로 업무를 진행하기에 커뮤니케이션 기술은 중요하지 않다.

2. 다음 중 데이터 사이언티스트의 역량으로 가장 적절한 것은?
  •  데이터베이스 테이블 설계 능력
  •  소프트 스킬로 통찰력 있는 분석 능력
  •  네트워크 최적화 능력
  •  데이터 분석 알고리즘으로 인해 불이익을 당한 사람을 구제하는 능력

3. 다음 중 빅데이터 출현 배경으로 옳지 않은 것은?
  •  비정형 데이터의 확산
  •  학계의 거대 데이터 활용 과학 확산
  •  중앙 집중 처리 방식의 특성
  •  데이터 처리 기술 발전

4. 다음 중 데이터베이스의 특징에 대한 설명으로 옳지 않은 것은?
  •  통합된 데이터로 동일한 내용의 데이터가 중복되어 저장된다.
  •  저장된 데이터로 컴퓨터가 접근할 수 있는 저장 매체에 저장된다.
  •  공용 데이터로 여러 사용자에게 서로 다른 목적으로 데이터가 공동 이용된다.
  •  변화되는 데이터로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 한다.

5. 다음 내용 중 빅데이터 위기 요인과 해결 방안이 잘 못 연결된 것을 모두 고르면?
가. 사생활 침해 → 정보사용자의 동의제에서 책임제로 변환
나. 책임 원칙의 훼손 → 알고리즘에 대한 접근권 제공
다. 데이터의 오용 → 데이터의 선택적 공개
  •  가,나
  •  가,다
  •  나,다
  •  가,나,다

6. 다음 중 암묵지-형식지 상호 작용에 대한 용어와 설명이 옳게 연결된 것은?
  •  내면화: 암묵적 지식 노하우를 책이나 교본 등 형식지로 만드는 것
  •  공통화: 만들어진 책이나 교본을 보고 다른 직원들이 암묵적 지식을 습득하는 것
  •  연결화: 책이나 교본에 자신이 알고 있는 새로운 지식을 추가하는 것
  •  표출화: 암묵적 지식 노하우를 다른 사람에게 알려주는 것

7. 다음 중 빅데이터 가치 패러다임의 변화 단계를 옳게 나열한 것은?
  •  Agency → Digitalization → Connection
  •  Digitalization → Connection → Agency
  •  Connection → Digitalization → Agency
  •  Digitalization → Agency → Connection

8. 다음 중 데이터의 가공 및 처리와 데이터 간 상관 관계 속에서 의미가 도출된 것은?
  •  정보
  •  지식
  •  지혜
  •  기호

9. 다음 내용은 빅데이터가 만들어 내는 본질적인 변화에 대한 설명이다. (A)와 (B)에 들어갈 내용이 옳게 연결된 것은?
"(A)는 어떤 현상에 대하여 현상을 발생시킨 원인과 그 결과 사이의 관계를 말하고, (B)는 어떤 두 현상이 관계가 있음을 말하지만 어느 쪽이 원인인지 알 수 없다."
  •  A: 선형 관계, B: 비선형 관계
  •  A: 비선형 관계, B: 선형 관계
  •  A: 인과 관계, B: 상관 관계
  •  A: 상관 관계, B: 인과 관계

10. 다음 내용은 데이터베이스를 기반으로 기업 내에 구축하는 주요 정보시스템 중 하나를 설명한 것이다. 아래의 내용이 설명하고 있는 정보 시스템은?
"고객 별 구매 이력 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 통해 보다 높은 이익을 창출할 수 있는 솔루션"
  •  CRM
  •  SCM
  •  EDW
  •  OLTP

데이터분석 기획


11. 다음 중 데이터 분석을 위한 조직 구조로 옳지 않은 것은?
  •  사업 구조
  •  집중 구조
  •  분산 구조
  •  기능 구조

12. 다음 중 분석 마스터 플랜 수립 과정에서 데이터 분석 우선순위를 평가할 때 고려해야 할 사항으로 옳지 않은 것은?
  •  분석 기술 능력
  •  전략적 중요도
  •  실행 용이성
  •  ROI

13. 다음 중 분석 프로젝트의 영역별 주요 관리 항목으로 옳지 않은 것은?
  •  시간(Time)
  •  관계(Relationship)
  •  범위(Scope)
  •  원가(Cost)

14. 다음 중 빅데이터 분석 방법론의 분석 기획 단계에서 프로젝트 위험 계획 수립 시 위험에 대한 대응 방법의 종류에 포함되지 않는 것은?
  •  회피(Avoid)
  •  수용(Accept)
  •  완화(Mitigate)
  •  관리(Management)

15. 다음 중 데이터 거버넌스의 구성요소로 옳지 않은 것은?
  •  원칙(Principle)
  •  조직(Organization)
  •  분석 방법(Method)
  •  프로세스(Process)

16. 다음 중 분석방법(How)은 알고 있으나, 분석의 대상(What)을 모르는 경우의 분석 주제 유형으로 적합한 것은?
  •  최적화(Optimization)
  •  통찰(Insight)
  •  솔루션(Solution)
  •  발견(Discovery)

17. 다음 중 분석 과제 관리 프로세스에 대한 설명으로 가장 옳지 않은 것은?
  •  과제 발굴 단계에는 분석 아이디어 발굴, 분석 과제 후보제안, 분석 과제 확정 프로세스가 있다.
  •  분석 과제로 확정된 분석 과제를 풀(pool)에서 관리한다.
  •  분석 과제를 진행하면서 만들어진 시사점과 분석 결과물은 풀(Pool)에 잘 축적하고 관리한다.
  •  과제 수행 단계에서는 팀 구성, 분석 과제 실행, 분석 과제 진행 관리, 결과 공유 프로세스가 있다.

18. 다음 중 빅데이터의 4V 중 ROI관점에서 효과(Return)에 해당하는 요소는?
  •  가치(Value)
  •  양(Volume)
  •  속도(Velocity)
  •  다양성(Variety)

19. 다음 내용은 어떤 모델에 대한 설명인가?
"반복을 통하여 점증적으로 개발, 처음 시도하는 프로젝트에 적용이 용이하지만, 
반복에 대한 관리체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다."
  •  프로토타입 모델
  •  나선형 모델
  •  폭포수 모델
  •  혼합 모델

20. 다음 중 새로운 문제를 탐색할 때, 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재 정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 분석과제 접근방법을 무엇이라고 하는가?
  •  중앙식 접근 방법
  •  디자인 사고
  •  하향식 접근 방법
  •  상향식 접근 방법

데이터분석


21. 다음 중 잔차의 정규성(Normality) 검정에 대한 설명으로 옳지 않은 것은?
  •  Shapiro-Wilk, Kolmogrov-Smirnov, Aderson Darling 등의 정규성 검정을 위한 방법을 사용한다.
  •  정규성 가정을 충족하지 못할 경우, 상관계수가 높은 변수를 제거한다.
  •  잔차의 정규성 검정은 잔차가 정규 분포를 보이는지에 대한 검정이다.
  •  Q-Q plot으로 대략적인 확인이 가능하다.

22. 다음은 단순회귀분석 결과이다. 이에 대한 설명으로 옳지 않은 것은?
  •  speed가 한 단위 증가할 때 dist는 3.932만큼 증가한다.
  •  유의수준 5%하에서 위의 모델은 통계적 유의미성을 갖는다.
  •  speed 변수의 변동성 중 설명력은 0.6511이다.
  •  speed와 dist의 상관계수는 0보다 클 것이다.

23. 다음 코드는 chickwts dataset의 weight 변수의 t.test결과에 대한 해석이다. 이에 대한 내용으로 가장 적절하지 않은 것은?
  •  닭 무게 260은 신뢰구간 안에 존재한다.
  •  전체 관측치의 수는 70이다.
  •  닭 무게의 95% 신뢰구간은 242.8~279.7이다.
  •  닭 무게의 점 추정량은 261.3이다

24. 다음 중 모수에 대한 설명으로 옳지 않은 것은?
  •  표본 평균은 모든 데이터를 더한 값을 데이터의 개수로 나눈 값이다.
  •  중앙값은 데이터의 중간에 있는 값을 의미 한다.
  •  표본 분산은 모든 데이터의 편차의 제곱 값을 더에 데이터 개수를 n이라고 했을 때, n-1로 나눈 값이다.
  •  p-백분위수는 전체 데이터 중 p번째 순위에 해당하는 값을 의미한다.

25. 다음 중 목표변수가 연속형인 회귀나무의 경우 사용하는 분류 기준으로만 짝지어진 것은 무엇인가?
  •  카이제곱 통계량, 지니 지수
  •  지니 지수, 엔트로피 지수
  •  엔트로피 지수, 분산 감소량
  •  분산 감소량, F-통계량

26. 다음 중 나이, 신분, 급여 등을 사용한 신용카드 월간 사용액 예측에 적합한 모형은?
  •  능형 회귀 모형(Ridge Regression)
  •  로지스틱 회귀 모형(Logistic Regression)
  •  DBSCAN
  •  SOM

27. 다음 중 두 좌표 A,B간의 유클리드 거리(Euclidean Distance)는?
    A : B
키  : 175  : 180
몸무게:   70   :  65
  •  10
  •  50
  •  √10
  •  √50

28. 다음 중 표본추출 시 발생하는 오차에 대한 설명으로 옳지 않은 것은?
  •  표본오차는 모집단의 일부인 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차를 의미한다.
  •  비표본오차는 표본 크기가 증가함에 따라 증가한다.
  •  표본 편의는 표본 추출방법에서 기인하는 오차를 의미하고, 정규화에 의해 최소화하거나 없앨 수 있다.
  •  표본 오차는 표본의 크기를 증가 시키고, 표본 선택 방법을 엄격히하여 줄일 수 있다.

29. 다음 중 특이도(Specificity) 계산식으로 옳은 것은?
  •  (TP+TN)÷(P+N)
  •  TN÷N
  •  TP÷(TP+FP)
  •  TP÷P

30. 다음 중 카달로그 배열, 교차 판매 등의 마케팅을 계획할 때 적절한 데이터 마이닝 기법은?
  •  분류
  •  추정
  •  군집
  •  연관분석

31. 다음은 USArrest 데이터 주성분 분석 결과이다. 80% 이상을 설명하려면 최소 몇개의 주 성분이 필요한가?
  •  1개
  •  2개
  •  3개
  •  4개

32. 다음 중 f(x)를 갖는 이산형 확률 변수일 때 기댓값을 구하는 계산식으로 올바른 것은?
  •  E(x) = Σxf(x)
  •  E(x) = ∫xf(x)
  •  E(x) = e[(x-μ)²]
  •  E(x) = x³ - x²

33. 다음 중 배깅(Bagging)에 대한 설명으로 옳은 것은?
  •  서로 다른 여러 개 모형에 대한 결과를 집계하여 최종 결과를 결정한다.
  •  두 단계의 학습이 있으며 첫 번째 단계는 다양한 기본 모델들을 사용한 학습이고, 두 번째 단계는 첫 번째 단계에서 얻은 결과를 입력으로 하는 메타 모델의 학습이다.
  •  약한 학습기의 오류 데이터에 가중치를 부여하면서 최종 모형을 만들어가는 방법이다.
  •  붓스트랩(bootstrap) 방법을 사용하여 동일한 데이터가 여러 번 선택될 수 있고, 어떤 데이터는 추출되지 않을 수 있다.

34. 다음 중 K-Fold 교차검증에 대한 내용으로 옳지 않은 것은?
  •  K=2인 경우, LOOCV라고 한다.
  •  주어진 데이터를 가지고 K번 반복적으로 성과를 측정해 그 결과를 평균한다.
  •  K-Fold는 데이터를 K개로 분할하는 것을 의미한다.
  •  데이터가 충분하지 않은 경우 주로 사용한다.

35. 다음 중 비계층적 군집 분석인 K-means 군집의 수행 절차를 옳게 나타낸 것은?
가. 각 자료를 가장 가까운 군집 중심에 할당한다.
나. 군집 중심의 변화가 거의 없을 때까지 자료를 중심에 할당과 중심 갱신을 반복한다.
다. 초기 군집의 중심으로 k개의 객체를 임의로 선택한다.
라. 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 계산하여 갱신한다.
  •  가→나→다→라
  •  나→가→다→라
  •  다→나→가→라
  •  다→가→라→나

36. 다음 중 주성분 분석에 대한 설명으로 옳지 않은 것은?
  •  주성분은 변수들의 선형결합으로 이루어져 있다.
  •  지도학습법 중 하나이다.
  •  가장 분산이 큰 것을 제 1 주성분으로 설정한다.
  •  공분산행렬 또는 상관 계수 행렬을 사용해 모든 변수를 가장 잘 설명하는 주성분을 찾는다.

37. 다음 중 연관 분석과 관련된 지표로 옳지 않은 것은
  •  신뢰도
  •  향상도
  •  순수도
  •  지지도

38. 다음 중 분해 시계열의 분해 요인으로 옳지 않은 것은?
  •  정상 요인
  •  추세 요인
  •  순환 요인
  •  계절 요인

39. SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도형태로 형상화하는 방법이다. 다음 중 SOM방법에 대한 설명으로 옳지 않은 것은?
  •  SOM은 입력 변수의 위치 관계를 그대로 보존한다는 특징이 있다. 이러한 SOM의 특징으로 인해 입력 변수의 정보와 그들의 관계가 지도상에 그대로 나타난다.
  •  SOM을 이용한 군집 분석은 인공신경망의 역전파 알고리즘을 사용함으로써 수행 속도가 빠르고 군집의 성능이 매우 우수하다.
  •  SOM 알고리즘은 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해하기 쉬울 뿐 아니라 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상 가깝게 표현된다.로
  •  SOM은 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 강도를 반복적으로 재조정하여 학습한다. 이와 같은 과정을 거치면서 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 된다.

40. 다음 중 동전 3개를 던져서 앞면이 한번 나올 확률은?
  •  1/4
  •  3/8
  •  1/2
  •  5/8

41. 다음 중 ARIMA(1, 2, 3)모형에서 ARMA로 정상화할 때 필요한 차분 수는?
  •  0
  •  1
  •  2
  •  3

42. 시계열 분석에 대한 내용으로 적절한 것은?
  •  AR모형은 과거 q시점 이전 오차들에서 현재 항의 상태를 추론한다.
  •  지수 평활법은 이동 평균법의 종류로 특정 기간 안에 속하는 모든 관측치에 대해 동일한 가중치를 부여한다.
  •  일반적으로 평균이 일정하지 않은 비정상 시계열은 변환을 통해, 분산이 일정하지 않은 비정상 시계열은 차분을 통해 정상 시계열로 바꾼다.
  •  AR 모형과 MA 모형은 둘 다 정상성(stationary)을 만족하는 정상 시계열 모형이다.

43. 다음 중 아래의 회귀 분석 결과에 대한 설명으로 옳지 않은 것은?
  •  5개의 독립변수를 갖는 47개의 표본(Sample)이 사용되었다.
  •  독립변수의 수가 많아 수정된 결정 계수 값이 더 작다.
  •  Examination변수는 유의하지 않으므로 회귀식은 Fertility = 66.915 -0.172*Agriculture -0.871* education+0.104*catholic + 1.077*Infant.Mortality이다.
  •  이 모델은 데이터를 70.67% 설명한다.

44. 다음 데이터 군집 분석 결과에 대한 설명으로 틀린 것은?
  •  계층적 군집 방법을 사용하여 군집한 결과를 그래프로 표현한 것이다.
  •  임의 파라미터 k를 선택할 필요가 없다.
  •  두 군집 사이의 거리를 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최솟값을 갖는 두 관측값을 연결한다.
  •  고립된 군집을 찾기 어렵다.

45. 다음 중 모집단에서 표본을 추출하여 모집단의 모수를 추측하는 과정에서 범위가 아니라 가장 참 값이라고 여겨지는 하나의 모수를 택하는 것은?
  •  점 추정
  •  구간 추정
  •  가설 검정
  •  비모수적 추론

46. 다음 내용의 빈칸에 들어갈 알맞은 용어는?
  •  확률(Probability)
  •  오즈비(odds ratio)
  •  오즈(odds)
  •  시그모이드(Sigmoid)

47. 다음 중 거래 데이터에서 추출된 연관 규칙 중 하나인 빵 → 우유의 지지도는?
  항목  : 거래수
빵,치즈,우유 : 10
사과,우유,치즈: 35
우유,빵,사과 : 10
빵,라면   : 25
우유,라면,치즈: 20
  합계  : 100
  •  0.45
  •  0.75
  •  0.44
  •  0.2

48. 다음 중 P(A)= 0.3, P(B)=0.4일 때, 사건 A와 사건 B가 독립 사건이라면 P(BㅣA)는?
  •  0.4
  •  0.3
  •  0.12
  •  0.7

49. 다음 중 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 차원 축소 기법은 무엇인가?
  •  주성분 분석(Principle Component Analysis)
  •  다차원 척도법(Multi-Dimensional Scaling)
  •  요인 분석(Factor Analysis)
  •  정준 상관분석(Canonical Correlation Analysis)

50. 다음 중 모집단 개체에 1,2,---, N까지 일련번호를 부여한 후, 첫 번째 표본을 임의로 선택하고 일정 간격(K)으로 다음 표본을 선택하는 방법은?
  •  층화 추출법
  •  단순 무작위 추출
  •  계통 추출
  •  군집 추출

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr